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Beschreibung 

Die Erfindung betrifft ein Verfahren zur Erkennung der raumlichen Lage und Drehlage von in geeigneter Weise 
markierten Objeklen in digitalen Bildlolgen, insbesondere auch zur Detektion und Vertolgung der Bewegungen einer 
5 menschlichen Hand, auf der, z.B. mit Hilfe eines speziell hierfur angefertigten Handschuhs, geeignete Markierungen 
angebracht sind. Solche Verfahren werden zur Steuerung von Datenverarbeitungsanlagen Oder damit zusammenhan- 
genden Einrichtungen mit Hilfe von Handzeichen (Gesten) in verschiedenen Bereichen der Technik, in denen eine 
moglichst einfache Mensch-Maschine-Kommunikation wichtig ist, benotigt. In dem Aufsatz (Cla91] von M.A. Clarkson, 
An easier interface, BYTE 16(2), Februar 1991 , wird '3D-Rooms B ein eindrucksvolles Beispiel eines dreidimensionalen 
10 Systems, einer Erweiterung der bekannten zweidimensionalen "Desktop'-Benutzeroberflachen fur die heute ublichen 
Computer mit graphischer Ben utze robe rflache, beschrieben, welches den Wert dreidimensionaler Eingabegerate be- 
sonders verdeutlicht. Ein Verfahren zur Erkennung der raumlichen Lage und Drehlage von in geeigneter Weise mar- 
kierten Objekten in digitalen Bildfolgen stellt also einen wichtigen Baustein fur zukunftige, dem Menschen besser ge- 
recht werdende Benutzerschnittstellen fOr Datenverarbeitungssysteme dar. 
75 Aus der Literatur bekannte Ansatze [Kru91], [Vm91], [Wei 91] und [Seg92] auf der Grundiage der Bildverarbeitung 

weisen alle den Nachteil auf, daG sie nur zweidimensionale Gesten erkennen konnen und daG ein gleichformiger 
Bildhintergrund mit vorgegebenen Eigenschaften vorausgesetzt werden muG. 

Aus dem Dokument DE-A-37 18 620 ist ein Verfahren zur Drehwinkelbestimmung mittels eines sogenannten Inter- 
Zwei-Schwerpunkte-Verfahrens bekannt. Dieses Verfahren setzt jedoch die Kenntnis der Position des Objektes.und 
20 seine Drehlage in den anderen beiden Raumrichtungen voraus. Es kann also nur die Drehlage urn eine Achse erken- 
nen, keine raumlichen Lagen. 

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Erkennung der raumlichen Lage und Drehlage von 
in geeigneter Weise markierten Objekten in digitalen Bildfolgen anzugeben, welches diesen Beschrankungen nicht 
unterliegt, sondern die Erfassung dreidimensionaler Gesten vor beiiebigem Bildhintergrund ermoglicht. 
2S Diese Aufgabe wird erfindungsgemaG durch ein Verfahren zur Erkennung der raumlichen Lage und Drehlage von 

in geeigneter Weise markierten Objekten in digitalen Bildfolgen mit Merkmalen nach Anspruch 1 gelost. 

Die Bilder einer Bildfolge werden durch Anwendung einer Schwellwertoperation binarisiert. Die Momente der ein- 
zelnen Segmente jedes einzelnen Binarbildes der Binarbildfolge bis zu einer vorgegebenen Ordnung enmittelt. Aus 
den Momenten werden Parameter ermittett, die die Lage und Drehlage der Segmente im Raum beschreiben; anhand 
30 dieser Parameter und der Momente werden die Markierungen und ihre Lage und Drehlage im Raum bestimmt. Unter 
Verwendung der bekannten Anordnung der Markierungen auf den markierten Objekten wird schlieGlich die Lage und 
Drehlage der markierten Objekte im Raum enmittelt. 

Vorteilhafte Weiterbildungen der Erfindung ergeben sich aus den Unteranspruchen. 

Figur 1 zeigt ein von einer CCD-Kamera aufgenommenes, gerastertes Grauwertbild einer fur die Durchfuhrung 
3$ des erfindungsgemaGen Verfahrens mit Markierungen versehenen menschlichen Hand. 
Figur 2 zeigt das Bild der Figur 1 in binarisierter Form. 

Figur 3 zeigt in schematischer Weise eine Konturverfolgung der Konturen eines binaren Segments, wie sie bei 
einer bevorzugten Ausfuhrungsform des erfindungsgemaGen Verfahrens zur Anwendung kommt. 

Figur 4 zeigt das Ergebnis der durch Figur 3 illustrierten Konturverfolgung am Beispiel des Bildes aus Figur 2. 
40 Figur 5 zeigt in schematischer Weise eine bevorzugte Ausfuhrungsform von Objektmarkierungen, wie sie im Zu- 

sammenhang mit dem erfindungsgemaGen Verfahren vorteilhaft verwendet werden konnen. 

Figur 6 zeigt ein Schema zur Verdeutlichung einer bevorzugten Ausfuhrungsform des erfindungsgemaGen Ver- 
fahrens. 

Figur 7 zeigt in schematischer Weise einen projezierten Kreis, also eine Elipse mit den Hauptachsen und weiteren 
45 Parametem. 

Figur 8 zeigt in schematischer Weise zwei kreisformige, projezierte Markierungen. 

Figur 9 zeigt in schematischer Weise die adaptive Schwellwertbildung am Beispiel zweier kreisformiger, projezier- 
ter Markierungen. 

Figur 10 zeigt in schematischer Weise die Einschrankung des Suchraumes mit Hilfe einer Bewegungsschatzung. 
50 im folgenden wird die Erfindung anhand bevorzugter Ausfuhrungsbeispiele und mit Hilfe der Figuren naher be- 

schrieben. 

Die Aufgabe der Bildverarbeitung bei der Steuerung von Datenverarbeitungssystemen mit Hilfe von Gesten einer 
menschlichen Hand ist die Erkennung der Bewegungen und Gesten der menschlichen Hand. Das dazu im folgenden 
beschriebene Verfahren kann aber uber den Bereich der Handgestenerkennung hinaus auf die Erkennung der raum- 
55 lichen Lage und Position beliebiger markierter Objekte angewendet werden. Die dabei eingesetzten Bildverarbeitungs- 
verfahren mussen vor allem unabhangig gegenuber Storungen im Bildfolgenmaterial sein, unabhangig sein gegenuber 
Schwankungen der Umgebungshelligkeit, gegenuber Bewegungen im Bildhintergrund und dabei eine Verarbeitungs- 
geschwindigkeit zwischen 10 und 25 Bildern pro Sekunde auf weisen. 
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Besonderes Augenmerk gilt hierbei bei der Geschwindigkeit der Bildverarbeitung. 1st diese namlich zu gering, so 
entsteht eine groBe Verzogerung zwischen den Handbewegungen des Benutzers und den damit gesteuerten Auswir- 
kungen in Bezug auf die jeweils gesteuerte Anwendung. Es hat sich durch Experimente herausgestellt, daB dabei eine 
Reaktionszeit von 1/10 Sekunde nicht uberschritten werden dart, wobei eine Reaktionszeit von 1/25 Sekunde optimal 
5 erscheint. 

Durch diese einschrankende Anforderung an die Verarbeitungsgeschwindigkeit der verwendeten Hardware er- 
schien in vielen Veroffentlichungen die Verwendung relativ kostspieliger Spezialhardware zur Bildverarbeitung in Echt- 
zeit oder aber sehr schneller und dennoch leistungsfahiger Bildverarbeitungsalgorithmen unausweichlich. Die im Rah- 
men dieser Patentanmeldung beschriebenen Bildverarbeitungsalgorithmen nutzen anwendungspezifisches Wissen in 

10 hohem MaBe aus, ohne daB jedoch ihre allgemeine Anwendbarkeit hierdurch eingeschrankt wurde. Bei einem bevor- 
zugten Ausfuhrungsbeispiel der erfindungsgemaBen Vertahren wird in Bildern, die mit einer Grauwertkamera aufge- 
nommen sind, eine menschliche Hand und deren Bewegungen erkannt, wobei diese Hand mit einem schwarzen Hand- 
schuh und darauf angebrachten Markierungen besonders markiert ist. Durch den Umstand, daB die GroBe und die 
Form dieser Markierungen im voraus bekannt sind, lassen sich Vertahren zur Bildverarbeitung stark vereinfachen. 

15 in einem Grauwertbild mit sich verandertem Hintergrund eine menschliche Hand in Echzeit zu erkennen ist in 

dieser Allgemeinheit ein sehr schwieriges Problem. Dieses Problem wird bedeutend vereinfacht, wenn die Hand sich 
deutlich vom Hintergrund abhebt und auf der Hand Markierungen angebracht sind, deren Form und GroBe bekannt 
sind. Aus diesem Grund ist es vorteilhaft im Zusammenhang mit dem erf indungsgemaBen Vertahren z. B. einen schwar- 
zen Handschuh mit darauf angebrachten weiBen Markierungen zu verwenden, den der Benutzer des erfindungsge- 

20 maBen Verfahrens uber seine Hand zieht. Das Bild der menschlichen Hand wird in diesem Vertahren mit Hilfe einer 
Grauwertkamera aufgenommen, einer adaptiven Schwellwertope ration unterzogen und so in ein segmentiertes Binar- 
bild umgewandelt. AnschlieBend werden zu alien Bildobjekten Merkmale berechnet und anhand dieser Merkmale die 
Markierungen erkannt und ihre Lage im Raum berechnet. Figur 6 verdeutlicht in schematischer Weise den Ablaut des 
erfindungsgemaBen Verfahrens. 

25 Die Bilder werden z. B. mit Hilfe einer CCD-Kamera aufgenommen, die sich vorzugsweise auf dem Computermo- 

nitor oder in seiner Nahe befindet. Sie wird zu Beginn des Verfahrens so eingestellt, daB ihr Aufnahmebereich mit 
einem dem Benutzer fur seine Handbewegungen angenehmen Raumbereich ubereinstimmt. In Versuchen hat sich 
hiertur ein Zoomobjektrv als sinnvoll, aber nicht unbedingt notig herausgestellt. 

Das von der Kamera gelieferte Bild in Form eines Videosignals wird z. B. durch einen Framegrabber digitalisiert 

30 und liegt anschlieBend im Speicher des Rechners als digitales Bild, z. B. der GroBe 512 x 512 Bildpunkte vor, wobei 
jeder Bildpunkt (Pixel) durch eine 8-Bit breite Zahl, welche den Grauwert dieses Bildpunktes beschreibt, dargestellt 
wird. 

Fig. 1 zeigt ein Beispiel eines gerasterten Grauwertbiides, auf dem eine schwarze Hand mit darauf angebrachten 
Markierungen dargestellt ist. Da die Kamera vom Benutzer nach seinen Wunschen ausgerichtet wird, ist die Lage ihrer 

35 optischen Achse im Raum nicht sofort bekannt. Deshalb wird nach dem Einstellen der Kamera im allgemeinen ein 
Kalibrierungsschritt notig sein. In diesem Kalibrierungsschritt, wird z. B. die Lage der optischen Achse der Kamera 
bestimmt und es wird z. B. die GroBe der Markierungen in einer vorgegebenen Entfernung vom Objektiv vermessen, 
so daB spater die Entfernung der Hand mit Hilfe der GroBe der Markierungen bestimmt werden kann. 

Nach der Aufnahme des Bildes einer menschlichen Hand oder eines anderen bewegten Objektes mit Hilfe einer 

40 CCD-Kamera, der anschlieBenden Digitalisierung und Speicherung dieses Bildes im Computer wird zur Datenreduktion 
eine Binarisierung dieses Grauwertbiides durchgef unit Eine dazu benutzte Schwelle wird zu Beginn vorgegeben oder 
interaktiv bestimmt und dann adaptiv an die vorhandenen Lichtbedingungen angepaBt. Die Adaption der Schwelle wird 
noch spater beschrieben werden. 

Das von der Kamera aufgenommene Grauwertbild wird als Binarbild nun weiterverarbeitet mit dem Ziel die auf 

45 dem Objekt, z. B. der Hand angebrachten Markierungen zu segmentieren. Hierzu wird ein an sich bekannter Algorith- 
mus von T. Pavlidis: 'Algorithms for Graphics and Image Processing", Springer 1982 angewandt. Dabei wird das Bi- 
narbild zeilenweise abgetastet. Wird ein Sprung von 0 nach 1, d. h. z. B. von dunkel nach hell detektiert, und wurde 
der aktuelle Bildpunkt noch nicht aufgesucht, so wird die Kontur im Uhrzeigersinn abgelaufen, wobei die Koordinaten 
der Bildpunkte in einer Liste gespeichert und die dabei aufgesuchten Bildpunkte als schon verarbeitet markiert werden. 

50 Bei einem Sprung von 1 nach 0 wird die Kontur entgegengesetzt zum Uhrzeigersinn abgetastet. Am Ende dieses 
Verarbeitungsschrittes steht im Speicher des Computers eine Liste der Objektkonturen zur Verf ugung, wobei zusatzlich 
bekannt ist, ob es sich urn ein schwarzes Objekt auf weiBem Grund oder urn den umgekehrten Fall handelt. Figur 3 
verdeutlicht in schematischer Weise die Durchfuhrung der Konturverfolgung nach Pavlidis. 

Figur 4 zeigt das Ergebnis der durch Figur 3 illustrierten Konturverfolgung am Beispiel des Bildes aus Figur 2. 

ss Zur weiteren Durchfuhrung des erfindungsgemaBen Verfahrens ist die Erkennung der markierten Objekte unab- 

hangig von ihrer Lage, GroBe und Orientierung im Raum erforderlich. In der Bildverarbeitung wurden Vertahren ent- 
wickelt, die es ermoglichen, Merkmale aus Bildern zu extrahieren, die invariant gegenuber den obengenannten Trans- 
formationen sind. Zu diesem Zweck sind besonders die sogenannten Momente geeignet, welche z. B. in der Verof- 
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fentlichung von Zhou et al "Morphological Skeleton Transforms for Determining position and orientation of Pre-Marked 
Objects', aus IEEE Pacific Rim Conference on Communication, Computers ans Signal Processing, pp. 301 - 305, 1 989 
beschrieben wurden. Das Moment m pq der Ordnung p,q einer Funktion f(x,y) wird dabei definiert als 

5 

m PA = $Z £xPy«f(x.y)dxdy 

io wobei f(x,y) z.B. der Grauwert eines Bildpunktes an der Stelle (x,y) ist. In der fur die Bildverarbeitung geeigneten 
diskreten Form lautet die Definition dieses Moments 

M N 

™p.q = X XxPy«f(x,y)AxAy, 
x=1 y=1 

wobei M und N die Anzahl der Bildpunkte in x- und y-Richtung, also die BildgrdGe bezeichnen. Die oben definierten 
20 Momente wurden fur den Fall fur Grauwertbildem definiert, wobei uber den Wertebereich der Funktion f keine ein- 
schrankenden Annahmen gemacht wurden. Im Falle des vorliegenden erfindungsgemaGen Verfahrens wurden die 
Bilder bereits binarisiert wodurch f lediglich die binaren Werte 1 Oder 0 annimmt. Damit vereinfacht sich die Definition 
des Moments zu 

M N 

nv q - X 5> p y q AxAy. 

x=1 y=1 

30 

Den Momenten niederer Ordnung kann dabei leicht eine anschauliche Interpretation zugeordnet werden: Das Moment 
m 0 o ist gleich der Flache eines Objektes. Die Quotienten bzw. geben die x- bzw. y-Koordinaten des Objekt- 
schwerpunkts an. Mit Hilfe dieser Schwerpunktkoordinater?'ftann deP'Schwerpunkt jedes Objektes in den Ursprung 
transformiert gedacht werden. Berechnet man die weiteren Momente in Bezug auf diese Koordinatenursprungswahl, 
35 so werden sie auch Zentralmomente genannt. Die Zentralmomente sind also wie folgt definiert 



U.y)€D 



Zur Berechnung eines Momentes sind genausoviele Operationen notig wie die Flache des Objektes Bildpunkte 
enthalt. Die Flache eines Objektes wachst im allgemeinen quadratisch mit seiner GroGe. Mit Hilfe des Satzes von 

45 Green ist es jedoch moglich die Definition der Momente so umzuformen, daG die Momente einer Menge D (ohne innere 
Locher) nur aufgrund ihrer UmriGiinie U berechnet werden konnen. Die Zahl der Bildpunkte auf der UmriGlinie steigt 
nur linear mit derObjektgroGe an. Die Komplexitat und der Rechenaufwand zur Berechnung der Momente ermaGigen 
sich daher urn eine ganze GroGenordnung. Enthalt ein Objekt Locher, so konnen die Momente trotzdem mit Hilfe des 
Green'schen Satzes berechnet werden, wenn man die Berandungskurven der Locher, im gegenlaufigen Sinn zur au- 

50 Geren Berandung des Objektes durchlaufen, als weitere Bestandteile der UmriGlinie des Objektes behandelt. 

Seien nun D eine Menge und U ihre UmriGlinie, so konnen die Momente der Menge D nach dem Green'schen 
Satz auch wie folgt berechnet werden: 

m p.q= £(axPy<» +1 Ax+bxP + yAy) 
U.y)eD 
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hierbei mussen die Koeffizienten a und b der Gleichung 



b(p +1)- a(q +1) = 1 



genugen. Wichtige Spezialfalle dieser allgemeinen Formel sind 



m 



p.q 




oder 




Die auBeren UmriBkurven sind dabei im Uhrzeigersinn, die inneren UmriBkurven - im Fall von Lochern - im Ge- 
genuhrzeigersinn zu durchlaufen. Bei dem erfindungsgemaBen Verfahren werden die ersten drei Momente zusammen 
mit der Konturvertolgung berechnet. AuBerdem werden die maximale Ausdehnung der Objekte in x- und y-Richtung 
erfaBt. In einem zweiten Schritt werden die hoheren Zentralmomente, so weit benotigt, berechnet. 

Zur Identifikation der markierten Objekte gilt es nun diejenigen Objekte zu finden, welche den Markierungen ent- 
sprechen. Bei einem bevorzugten Ausf uhrungsbeispiel des erfindungsgemaBen Verfahrens werden als Markierungen 
zwei exzentrisch zueinander angeordnete Kreise verwendet, von denen der eine moglichst hell (weiB) der andere 
moglichst dunkel (schwarz) ist. Diese Anordnung der Markierungsstrukturen hat den Vorteil, daB die gesamte Anord- 
nung nicht rotationsinvariant ist, und daB perspektivische Projektionen dieser Anordnung leicht zu berechnen sind. 
Diese Eigenschaften der bevorzugten Ausfuhrungsform der Objektmarkierungen sind fur das erfindungsgemaBe Ver- 
fahren besonders geeignet. Hierdurch kann die Drehlage der markierten Objekte besonders zuverlassig detektiert 
werden. 

Nachdem die Konturvertolgung und die Berechnung der Momente abgeschlossen ist, werden nacheinander ver- 
schiedene Tests durchgefuhrt um die Markierungen im Bild zu identifizieren: 

Da die GroBe der Markierungen auf der Handflache (bzw auf den Objekten) bekannt ist und da ein minimaler und 
maximaler Abstand von der Kamera leicht vorgegeben werden kann (z. B. 20 cm bis 4000 cm) ist es moglich eine 
untere Schranke fur die Flache dieser Markierungen im Bild anzugeben. Das Moment m 0 0 gibt aber gerade die Flache 
des Objekts an. Also konnen alle Objekte die groBer oder kleiner sind sofort aussortiert werden. 

Zur Bestimmung der Kreisformigkeit wird als grober Anhaltspunkt die maximale Ausdehnung der detektierten Ob- 
jekte in x- und y-Richtung benutzt um die Ahnlichkeit jedes Objektes mit einem Kreis zu berechnen. Ferner wird nach 
einem groBen schwarzen Objekt gesucht, in dem sich ein kleineres weiBes Objekt (oder umgekehrt) befindet und 
deren GroBenverhaltnisse innerhalb gewisser Grenzen liegen. Es ist fOr den Fachmann leicht moglich noch weitere 
und unter Umstanden bessere Kriterien zur Detektion der Markierungsstrukturen zu finden. Es hat sich jedoch in Ex- 
perimenten gezeigt, daB es mit den oben angegebenen Kriterien fast immer moglich war die Markierungen eindeutig 
im Bild zu identifizieren. 

Nach der Identifikation der Markierungsstrukturen kann die Position der Schwerpunkte der Markierungsstrukturen 
und damit uber die bekannte Anordnung der Markierungsstrukturen auf den Objekt (Hand) auch die Position der Hand 
im Raum in x- und y-Richtung ermittelt werden. Die GroBe der Markierungsstruktur gibt uber die bekannte Flache den 
Abstand von der Kamera und damit die Position in z-Richtung an. Damit ist die Lage des Objektes im Raum bekannt. 

Nachdem so die Lageparameter der Markierungen und damit der Objektschwerpunkte ermittelt wurden geht es 
im folgenden um die Bestimmung der Winkel um welches das Objekt bezuglich der drei raumlichen Achsen gedreht 
angeordnet ist. Zur Bestimmung dieser Drehwinkel wird die Tatsache ausgenutzt, daB der Mittelpunkt des inneren 
Kreises der in Figur 5 gezeigten Markierung und der des auBeren Kreises nicht zentrisch zueinander sind, sowie der 
Umstand das ein Kreis unter raumlicher Projektion in eine Ellipse Oberfuhrt wird, aus deren Parametem man auf den 
Projektionswinkel schlieBen kann. Es sind also die Parameter einer Ellipse zu bestimmen und daraus die Neigungs- 
winkel der Kreisebene zur Bildebene zu berechnen. Der Flachennormalenvektor der Kreisebene der Markierung sei 
n = (A,B,C) so daB fur alle Punkte (x.y.z) auf dem Kreis im Raum gilt 
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Ax+ By +Cz = 0 , 



wobei der Radius R des Kreises gegeben ist durch 

5 

R = ./x 2 + y 2 + z 2 . 

Figur 7 veranschaulicht in schematischer Weise die geometrischen Parameter eines projezierten Kreises, d. h. 
10 einer Ellipse mit den Hauptachsen M und N, dem Winkel G, den die Hauptachse M mit der x-Achse bildet und dem 
Fiachennormalen-Vektor n. Sind die Zentralmomente des Objektes welches der Ellipse entspricht bekannt, so kann 
man die Hauptachsen M und N dieser Ellipse und den Winkel 6, welchen die Hauptachse M mit der x-Achse bildet 
gemaB den Formeln 

15 t 



6 = 1^4-2—^—1 
2 [ ff»2,0 + ft0^J 



berechnen. Zur Berechnung der Hauptachsen und des Winkels sind also lediglich die Momente bis zur zweiten Ordnung 
35 erforderlich. Zwischen den genannten Parametern gelten die folgenden nutzlichen Beziehungen. 



40 



M = R 



1+ 



(AanG+Bcose) 2 



. N = R^1 + 



(Aan6-Bcos8) 2 



r 



und 



45 



A=-B-tan(e). 



Durch Umformung erhalt man 

so 

q _ I A sine- Bcos6| 

55 

und weil n ein Normalenvektor ist, gilt 



6 
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A 2 +B 2 +C 2 =1. 

Mit Hilfe einiger Umlormungen lassen sich die Komponenten A, B und C des Nonmalenvektors n wie folgt berech- 

5 nen: 



A= -BtanG 

10 



, B= J r2+ (tan9)2 + l,C=7l-A 2 + B 2 

H (tanGsme+cos) 2 



Besteht die kreisformige Markierung aus zwei Kreisringen deren Mittelpunkte urn (dx.dy) gegeneinander verscho- 
ben sind, dann kann man die Rotation <J> urn die Z-Achse berechnen als: 



1S 

arc tan 



»)■ 



20 

Die Parameter A und B mussen nun entsprechend der Z-Achsen Rotation <J> wie folgt transformiert werden: 



A = Acos<J>-Bsin$ 
B = Asin<J> + Bco$4> ' 

Bezuglich der Rotation urn die Z-Achse befindet sich die Ellipse nach dieser Transformation in Normallage. Damit 
30 sind nun noch die Winkel fur die Rotationen urn die x-Achse a und die y-Achse p aus der bekannten Flachennormalen 



n = (A,B,C) 

zu berechnen. Dazu transformiert man zweckmaBig die durch n bestimmte Ebene so, daB n anschlieGend parallel 
zum Vektor (0,0,1), d. h. parallel zur Z-Achse liegt. Zuerst findet eine Rotation urn die X-Achse statt, gefolgt von einer 
Rotation urn die Y-Achse: 



40 

a = arcc« 



45 



0 = arccos^VB 2 +C 2 j = arcsin(-A) 



Urn ein Modell des Objektes, bzw. der Hand in Normallage, d. h. parallel zur XY-Ebene in die Lage der kreisformigen 
Markierung zu bringen, mussen die obigen Drehungen in umgekehrter Reihenfolge angewandt werden. Also zuerst 
urn die Y-Achse, dann die X-Achse und zuletzt urn die Z-Achse. 

Aus verschiedenen Grunden kann es erforderlich sein bei einem bevorzugten Ausf uhrungsbeispiel des erfindungs- 
55 gema&en Verfahrens die zur Binarisierung des aufgenommenen Grauwertbildes benutzte Schwelle wahrend des Ver- 
fahrens fortlaufend neu zu bestimmen. Zum einen gibt es Schwankungen der Raumbeleuchtung (z. B. Wolken, zu- 
satzliche Lampen), zum anderen werden durch Bewegungen der Hand lokale Helligkeitsschwankungen auf der Mar- 
kierungsstruktur selbst verursacht. Letzteres tritt auf z. B. bei einer Deckenbeleuchtung und einer Neigung der Hand 
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urn die X-Achse. Die Finger werfen dann einen Schatten aut die auf der Handflache angebrachte Markierungsstruktur. 
Zur Bewaltigung dieser Schwierigkeiten ist es daher zweckmaBig die Schwelle an Helligkeitsschwankungen zu adap- 
tieren. 

Hierbei wird ausgenutzt, daB das Verhaltnis der Durchmesser beider Kreise der Markierungsstruktur bekannt ist. 

s Es wird nun eine Linie berechnet, die durch beide Mittelpunkte der Markierungskreise verlauft Ihr Startpunkt ist der 
erste Schnittpunkt der Linie mit dem auBeren Markierungskreis und ihr Endpunkt der zweite Schnittpunkt. Figur 9 
veranschaulicht in schematischer Weise die geometrischen Verhaltnisse. Hierbei bedeutet th die Schwelle welche zu 
adaptieren ist, IC den Mittelpunkt des inneren Markierungskreises (4 da projeziert als Ellipse dargestellt) und UC den 
Mittelpunkt des auBeren Markierungskreises. L bedeutet die Linie durch beide Mittelpunkte. Die n Grauwerte im Bild 

io entlang dieser Linie werden nun in ein Feld sortiert. Ist der auBere Markierungskreis beispielsweise weiB, so mussen 
im Fall einer optimalen Schwelle n x r Punkte unterhalb der Schwelle und n x (1 -r) Punkte oberhalb der Schwelle liegen, 
wobei r das Verhaltnis aus dem Durchmesser des kleinen Markierungskreises und dem Durchmesser des groBen 
Markierungskreises ist. Eine solche Schwelle ist genau das n-te Element des sortierten Grauwertfeldes. Die Benutzung 
dieser Schwelle erscheint jedoch in der wirklichen Anwendung nicht immer optimal, statt dessen kann in einem bevor- 

is zugten Ausfuhrungsbeispiel der Erfindung auch der Mittelwert der durchschnittlichen Grauwerte beider Cluster als 
neue Schwelle verwendet werden. Diealte Binarisierungsschwelle wird dann in Richtung der neu berechneten Schwel- 
le verandert: 

20 th neu = th ah + K -(th opt -th aI| ) I K < 1. 

Mit unter kommt es vor, daB in einzelnen Bildern keine Markierungsstrukturen gefunden werden konnen. In diesem 
Fall kann es sein, daB sich z. B. die Beleuchtung sehr stark verandert hat. Deshalb wird nach einer bestimmten Anzahl 
von Bildern ohne gefundene Markierungsstruktur die Schwellwertbildung z. B. mit Zufallszahlen fortgesetzt Wird dann 

25 der Markierer erfolgreich detektiert, dann treten die oben beschriebenen Mechanismen zur Schwellwertadaption wieder 
in Kraft. Ist die Markierungsstruktur erst einmal gefunden, ist es haufig nicht notig in den folgenden Bildern jeweils die 
gesamte Bildebene nach einer Markierungsstruktur abzusuchen. Stattdessen wird ein Suchbereich definiert und nur 
in diesem Suchbereich werden die Schritte Binarisierung, Konturverfolgung und Objektidentifikation durchgef Qhrt. Da 
der Suchbereich typischerweise klein gegenuber dem gesamten Bild ist, ergibt sich eine signifikante Reduzierung der 

30 Anzahl der zu untersuchenden Bildpunkte und damit eine Erhohung der Rechengeschwindigkeit. 

Figur 10 zeigt in schematischer Weise die Verwendung eines eingeschrankten Suchbereichs im Zusammenhang 
mit einer einfachen Form der Bewegungsschatzung. Die Aufgabe der Bewegungsschatzung ist es nun vorherzusagen, 
wo sich die Markierung im nachsten Bild befinden wird, um das Zentrum des neuen Suchbereichs dort positionieren 
zu konnen. Fur Zwecke des erfindungsgemaBen Verfahren reicht haufig eine recht einfache Art der Bewegungsschat- 

35 zung, ein sogenannter linearer Pradiktor, vollkommen aus. Die Geschwindigkeit der Markierungsstruktur wird aus den 
letzten beiden Bildern geschatzt und es wird angenommen, die Geschwindigkeit der Markierungsstruktur sei nahe- 
rungsweise konstant. Damit kann ihre neue Position im folgenden Bild geschatzt und der Suchbereich dort zentriert 
werden. Je nach Geschwindigkeit der Markierungsstruktur wird der Suchbereich vergroBert, da bei hoher Geschwin- 
digkeit der Hand die Wahrscheinlichkeit von plotziichen Richtungsanderungen und damit einem Verschwinden aus 

40 einem zu kleinen Suchbereich steigt. Kann die Markierungsstruktur im festgelegten Suchbereich nicht gefunden wer- 
den, wird der Suchbereich in mehreren Schritten solange vergroBert, bis die Markierung wieder gefunden werden 
kann, gegebenenfalls solange bis der Suchbereich die gesamte BildgroBe umfaBt. 

Naturlich sind im Zusammenhang mit dem erfindungsgemaBen Verfahren auch andere Methoden zur Bewegungs- 
schatzung verwendbar, die z. B. die geschatzt e Objektgeschwindigkeit und die Beschleunigung, sowie Wissen uber 

45 die detektiert e Objektbewegung allgemein, in die Bestimmung eines neuen Suchbereiches mit einbeziehen. Dem Fach- 
mann sind aus der Literatur verschiedene Methoden zur Bewegungsschatzung die im Zusammenhang mit dem erfin- 
dungsgemaBen Verfahren vorteilhaft eingesetzt werden konnen bekannt. 

Im Rahmen dieser Patentanmeldung wurden die folgenden Veroffentlichungen zitiert: 

so (Cla91] M.A. Clarkson, An easier interface, BYTE 16(2), Februar 1991. 

[Kru91] M.W. Krueger, "Artificial Reality II", Addison -Wesley, 1991 . 

[Vin91] V.J. Vincent, Dwelving in the deph of the mind, Proc. Interface to real & virtual worlds, Montpellier, 1991. 

55 

[Wel91] P. Wellner, The DigitalDesk Calculator: Tangible Manipulation on a Desk Top Display, Proceedings of the 
ACM Symposium on User Interface Software and Technology (UIST '91), November 1991, Hilton Head, USA. 
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[Seg92] J. Segen, Gest. A learning computer vision system that recognizes gestures, to appear in Machine 
Learning 4. 

[Pav82] T. Pavlidis: Algorithmns for Graphics and Image Processing, Springer 1982. 

[Zhou89] Z. Zhou et al, Morphological Skeleton Transforms for Determining position and orientation of Pre-Marked 
Objects, IEEE Pacific Rim Conference on Communication, Computers and Signal Processing, pp. 301 - 305, 1 989. 

Patentanspruche 

1 . Vert ahren zur Erkennung der raumlichen Lage und Drehlage von markierten Objekten in digitalen Bildfolgen, wobei 
zur Markierung der Objekte exzentrisch zueinander angeordnete Strukturen verwendet werden, mit folgenden 
Schritten: 

a) die Bilder einer Bildfolge werden durch Anwendung einer Schwellwertoperation binarisiert, wodurch eine 
Binarbildfolge gebildet wird; 

b) es werden die Momente der einzelnen Segmente jedes einzelnen Binarbildes der Binarbildfolge bis zu einer 
vorgegebenen Ordnung ermittelt; 

c) aus den Momenten werden Parameter ermittelt, die die Lage und Drehlage der Segmente im Raum be- 
schreiben; anhand dieser Parameter und der Momente werden die Markierungen und ihre Lage und Drehlage 
im Raum bestimmt; 

d) unter Verwendung der bekannten Anordnung der Markierungen auf den markierten Objekten wird 
schlieQIich die Lage und Drehlage der markierten Objekte im Raum ermittelt. 

2. Verfahren nach Anspruch 1 , bei dem die Konturen der einzelnen Segmente jedes einzelnen Binarbildes der Bi- 
narbildfolge ermittelt und Momente dieser Segmente aus ihren Konturen bestimmt werden. 

3. Verfahren nach einem der vorhergehenden Anspruche, bei dem kreisformige Strukturen zur Markierung der Ob- 
jekte verwendet werden. 

4. Verfahren nach einem der vorhergehenden Anspruche, bei dem der Schwellwert, welcher zur Binarisierung der 
Bildfolge verwendet wird, in Abhangigkeit von den laufend gemessenen Intensitaten der Bildpunkte der Markie- 
rungsstrukturen sich verandemden Beleuchtungsbedingungen dieser Strukturen angepaBt wird. 

5. Verfahren nach einem der vorhergehenden Anspruche, bei dem die Positionen der Markierungen in spateren 
Bildem aus den beobachteten Werten in fruheren Bildern vorhergesagt werden, und bei dem diese Markierungen 
in geeignet gewahlten Umgebungen ihrer vorhergesagten Positionen gesucht werden. 

6. Verwendung eines Verfahrens nach einem der vorhergehenden Anspruche in einem System zur automatischen 
Erkennung von Gesten einer Person, welche ein Datenverarbeitungssystem mit grafischer Benutzeroberflache 
bedient. 



Claims 

1. Method for detecting the spatial position and rotational position of marked objects in digital image sequences, 
structures arranged eccentrically relative to one another being used to mark the objects, having the following steps: 

a) the images of an image sequence are put into binary form by applying a threshold value operation, as a 
result of which a binary image sequence is formed; 

b) the moments of the individual segments of each individual binary image of the binary image sequence are 
determined up to a prescribed order; 

c) parameters which describe the position and rotational position of the segments in space are determined 
from the moments; the markings and their position and rotational position in space are determined with the 
aid of these parameters and the moments; 

d) finally, the position and rotational position of the marked objects in space are determined using the known 
arrangement of the markings on the marked objects. 
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2. Method according to Claim 1 , in which the contours of the individual segments of each individual binary image of 
the binary image sequence are determined and moments of these segments are determined from their contours. 

3. Method according to one of the preceding claims, in which circular structures are used to mark the objects. 

4. Method according to one of the preceding claims, in which the threshold value which is used to put the image 
sequence into binary form is adapted, as a function of the continuously measured intensities of the pixels of the 
marking structures, to varying lighting conditions of these structures. 

5. Method according to one of the preceding claims, in which the positions of the markings in later images are predicted 
from the observed values in earlier images, and in which these markings are searched for in suitably selected 
environments of their predicted positions. 

6. Use of a method according toone of the preceding claims in a system for automatically recognizing gestures of a 
person who is operating a data processing system having a graphic user interface. 



Revendications 

1. Procede de reconnaissance de la position dans I'espace et de la position de rotation d'objets marques dans des 
sequences d'images numeriques, des structures disposees de maniere excentrique Tune par rapport a I'autre 6tant 
utilis6es pour le marquage des objets, comprenant les etapes suivantes : 

a) les images d'une sequence d'images sont mises sous forme binaire en utilisant une operation de seuil, ce 
qui permet de former une sequence d'images binaires; 

b) les moments des diff erents segments de chaque image binaire individuelle de la sequence d'images binaires . 
sont determines jusqu'a un ordre donn6; 

c) a partir des moments, on determine des parametres qui decrivent la position et la position de rotation des 
segments dans I'espace; s'appuyant sur ces parametres et ces moments, on determine les marques et leur 
position et position de rotation dans I'espace; 

d) en utilisant I'agencement connu des marques sur les objets marqu6s, on determine finalement la position 
et la position de rotation des objets marqu6s dans I'espace. 

2. Proc6de selon la revendication 1, dans lequel les contours des diff6rents segments de chaque image binaire 
individuelle de la sequence d'images binaires sont d6finis et les moments de ces segments sont determines a 
partir de leur contours. 

3. Proc6d6 selon J'une des revendications pr6c6dentes, dans lequel des structures circulaires sont utilis6es pour le 
marquage des objets. 

4. Proc6d6 selon I'une des revendications precedentes, dans lequel la valeur seuil, qui est utilis6e pour mettre sous 
forme binaire la sequence d'images, est adaptee, en fonction des intensites mesurees en continu des points dama- 
ge des structures de marquage, aux conditions d*6clairage de ces structures qui se modifient. 

5. Proc6d6 selon I'une des revendications pr6c6dentes, dans lequel les positions des marques dans des images 
ulterieures sont predites a partir des valeurs observ6es dans des images anterieures, et dans lequel ces marques 
sont cherch6es dans des zones choisies de maniere appropriee entourant leurs positions predites. 

6. Utilisation d'un precede selon I'une des revendications precedentes dans un systeme de reconnaissance auto- 
matique de gestes d'une personne qui commande un systeme de traitement de donn6es avec une interlace gra- 
phique utilisateur/systeme. 
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